Despite high global prevalence of hepatic steatosis, no automated diagnostics demonstrated generalizability in detecting steatosis on multiple international datasets. Traditionally, hepatic steatosis detection relies on clinicians selecting the region of interest (ROI) on computed tomography (CT) to measure liver attenuation. ROI selection demands time and expertise, and therefore is not routinely performed in populations. To automate the process, we validated an existing artificial intelligence (AI) system for 3D liver segmentation and used it to purpose a novel method: AI-ROI, which could automatically select the ROI for attenuation measurements. AI segmentation and AI-ROI method were evaluated on 1,014 non-contrast enhanced chest CT images from eight international datasets: LIDC-IDRI, NSCLC-Lung1, RIDER, VESSEL12, RICORD-1A, RICORD-1B, COVID-19-Italy, and COVID-19-China. AI segmentation achieved a mean dice coefficient of 0.957. Attenuations measured by AI-ROI showed no significant differences (p = 0.545) and a reduction of 71% time compared to expert measurements. The area under the curve (AUC) of the steatosis classification of AI-ROI is 0.921 (95% CI: 0.883 - 0.959). If performed as a routine screening method, our AI protocol could potentially allow early non-invasive, non-pharmacological preventative interventions for hepatic steatosis. 1,014 expert-annotated liver segmentations of patients with hepatic steatosis annotations can be downloaded here: https://drive.google.com/drive/folders/1-g_zJeAaZXYXGqL1OeF6pUjr6KB0igJX.
translated by 谷歌翻译
对于单眼360图像,深度估计是一个具有挑战性的,因为失真沿纬度增加。为了感知失真,现有方法致力于设计深层且复杂的网络体系结构。在本文中,我们提供了一种新的观点,该视角为360图像构建了可解释且稀疏的表示形式。考虑到几何结构在深度估计中的重要性,我们利用Contourlet变换来捕获光谱域中的显式几何提示,并将其与空间域中的隐含提示集成在一起。具体而言,我们提出了一个由卷积神经网络和Contourlet变换分支组成的神经轮廓网络。在编码器阶段,我们设计了一个空间光谱融合模块,以有效融合两种类型的提示。与编码器相反,我们采用了逆向方形变换,并通过学习的低通子带和带通道的定向子带来构成解码器中的深度。在三个流行的全景图像数据集上进行的实验表明,所提出的方法的表现优于最先进的方案,其收敛速度更快。代码可在https://github.com/zhijieshen-bjtu/neural-contourlet-network-for-mode上找到。
translated by 谷歌翻译
知识蒸馏(KD)将知识从高容量的教师网络转移到加强较小的学生。现有方法着重于发掘知识的提示,并将整个知识转移给学生。但是,由于知识在不同的学习阶段显示出对学生的价值观,因此出现了知识冗余。在本文中,我们提出了知识冷凝蒸馏(KCD)。具体而言,每个样本上的知识价值是动态估计的,基于期望最大化(EM)框架的迭代性凝结,从老师那里划定了一个紧凑的知识,以指导学生学习。我们的方法很容易建立在现成的KD方法之上,没有额外的培训参数和可忽略不计的计算开销。因此,它为KD提出了一种新的观点,在该观点中,积极地识别教师知识的学生可以学会更有效,有效地学习。对标准基准测试的实验表明,提出的KCD可以很好地提高学生模型的性能,甚至更高的蒸馏效率。代码可在https://github.com/dzy3/kcd上找到。
translated by 谷歌翻译
在本报告中,我们将提交的技术细节介绍给2022年Epic-Kitchens无监督的域适应性(UDA)挑战。现有的UDA方法使从源和目标域中的整个视频片段中提取的全局功能对齐,但在视频识别中遇到了功能匹配的空间冗余。通过观察到,在大多数情况下,每个视频框架中的一个小图像区域可以足以满足动作识别任务的信息,我们建议利用信息图像区域以执行有效的域名。具体而言,我们首先使用轻型CNN来提取输入两流视频帧的全局信息,并通过基于可区分的插值选择策略选择信息性的图像补丁。然后,来自视频框架的全局信息和来自图像补丁的本地信息将通过现有的视频适应方法(即TA3N)处理,以便为源域和目标域执行功能对齐。我们的方法(无模型合奏)在今年的Epic-Kitchens-100测试集中排名第四。
translated by 谷歌翻译
并非每个人都可以配备专业的摄影技巧和足够的拍摄时间,并且偶尔会有一些倾斜的图像。在本文中,我们提出了一项名为“旋转校正”的新的实用任务,以自动校正具有较高内容保真度的倾斜度,条件是旋转角度未知。可以轻松地将此任务集成到图像编辑应用程序中,从而使用户无需任何手动操作即可更正旋转的图像。为此,我们利用神经网络来预测可以扭曲倾斜图像的光流,以感知水平。然而,单个图像的像素光流量估计非常不稳定,尤其是在大角度倾斜图像中。为了增强其鲁棒性,我们提出了一种简单但有效的预测策略,以形成强大的弹性经纱。特别是,我们首先回归可以转化为可靠的初始光学流的网格变形。然后,我们估算残留的光流,以促进我们的网络赋予像素变形的灵活性,从而进一步纠正倾斜图像的细节。为了建立评估基准并训练学习框架,在场景和旋转角度上呈现了较大的多样性,呈现了全面的旋转校正数据集。广泛的实验表明,即使在没有角度的情况下,我们的算法也可以超越其他需要此事先的最先进的解决方案。代码和数据集将在https://github.com/nie-lang/rotationCorrection上找到。
translated by 谷歌翻译
最近,基于水平表示的全景语义分割方法优于基于投影的解决方案,因为可以通过在垂直方向上压缩球形数据来有效地消除畸变。但是,这些方法忽略了之前的失真分布,并且仅限于不平衡的接收场,例如,接收场在垂直方向上足够,并且在水平方向上不足。不同的是,沿另一个方向压缩的垂直表示可以提供隐式失真先验,并扩大水平接收场。在本文中,我们结合了两种不同的表示,并从互补的角度提出了一种新颖的360 {\ deg}语义分割解决方案。我们的网络包括三个模块:特征提取模块,一个双向压缩模块和一个集合解码模块。首先,我们从Panorama提取多尺度功能。然后,设计一个双向压缩模块,将特征压缩为两个互补的低维表示,这些表示提供了内容感知和失真。此外,为了促进双向特征的融合,我们在合奏解码模块中设计了独特的自我蒸馏策略,以增强不同特征的相互作用并进一步提高性能。实验结果表明,我们的方法的表现优于最先进的解决方案,在定量评估上至少提高了10 \%的改进,同时显示出视觉外观上最佳性能。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
现有的全景深度估计方法基于卷积神经网络(CNN)的重点是消除全景畸变,由于CNN中的固定接受场而无法有效地感知全景结构。本文提出了全景变压器(名为PanoFormer),以估计全景图像中的深度,并带有球形域,可学习的令牌流和全景特定指标的切线斑块。特别是,我们将球形切线结构域上的斑块划分为令牌,以减少全景畸变的负面影响。由于几何结构对于深度估计是必不可少的,因此自我发项式模块通过额外的可学习令牌流重新设计。此外,考虑到球形域的特征,我们提出了两个全景特异性指标,以全面评估全景深度估计模型的性能。广泛的实验表明,我们的方法显着优于最先进的方法(SOTA)方法。此外,可以有效地扩展提出的方法以求解语义全景分割,这是类似的Pixel2像素任务。代码将可用。
translated by 谷歌翻译
由于可靠的3D空间信息,LIDAR传感器广泛用于自动驾驶。然而,LIDAR的数据稀疏,LIDAR的频率低于相机的频率。为了在空间和时间上生成密集点云,我们提出了第一个将来的伪激光框架预测网络。鉴于连续稀疏深度图和RGB图像,我们首先根据动态运动信息粗略地预测未来的密集深度图。为了消除光流量估计的误差,提出了帧间聚合模块,以使具有自适应权重的翘曲深度图熔断。然后,我们使用静态上下文信息优化预测的密集深度图。通过将预测的密集深度图转换为相应的3D点云,可以获得未来的伪激光镜帧。实验结果表明,我们的方法优于流行基准基准的现有解决方案。
translated by 谷歌翻译
面部剪影生成在视野中引起了很多关注。然而,现有方法要么限制受约束条件或大量依赖于各种预处理步骤处理野外病例。在本文中,我们认为,准确地感知面部区域和面部部件对于无关训练的草图合成至关重要。为此,我们提出了一种新颖的感知 - 自适应网络(PANET),其可以在端到端方案中的无约束条件下产生高质量的面部草图。具体而言,我们的PANET由I)用于分层特征提取的完全卷积的编码器,ii)用于提取潜在面部区域和处理面部变化的面部自适应感知解码器,以及III)用于面部组件感知功能的组件 - 自适应感知模块代表学习。为了便于进一步研究不受约束的面部素描综合,我们介绍了一个新的基准被称为Wildsketch,其中包含800对脸上的照片素描,具有姿势,表达,民族来源,背景和照明的大变化。广泛的实验表明,所提出的方法能够在受约束和无约束条件下实现最先进的性能。我们的源代码和Wildsketch基准测试在项目页面http://plingboliu.com/unconstrow_face_sketch.html上进行重新密封。
translated by 谷歌翻译